论文推荐|[TMM 2022]基于切分的手写中文文本识别：一种无需切分标注的方法

Original 彭德智 CSIG文档图像分析与识别专委会 2022-12-15

本文简要介绍2022年1月发表于TMM的论文“Recognition of Handwritten Chinese Text by Segmentation: A Segment-annotation-free Approach”的主要工作。该工作针对手写中文文本识别问题，提出了一种基于单字切分的方法。该方法无需真实数据的单字切分标注，即可训练模型得到手写中文文本行的单字切分和文本识别结果。实验证明该方法在多个场景下的联机和脱机手写中文文本识别任务上取得了目前最佳的识别准确率。同时，该方法的推理速度也大幅超过目前流行的基于CTC及Attention的方法。此外，该方法在场景中文识别任务中也达到了高于CTC及Attention方法的识别性能。

一、背景

联机和脱机手写中文文本识别是一个极具实际应用价值的研究方向。早期的方法通常采用基于过切分的策略，将输入的数据切分为多个过切分块，再通过最佳路径搜索算法得到单字切分和识别结果，但是这种方法的速度较慢、准确率较低且需要成本高昂的单字切分标注。最近，基于CTC或Attention的无切分的方法成为手写中文文本识别领域的主流。但是在实际生活中，特别是对于中文这种象形文字，人们仍然会先区分出每个方块字再逐字阅读。因此，文章中提出疑问：无切分的方法是否是最适合中文文本识别的方法？基于这一问题，文章中提出了一种新型的基于切分的手写中文文本识别方法。该方法通过一个简单有效的全卷积网络实现，具有超过现有CTC/Attention方法的推理效率。同时，文章提出了一种弱监督学习方法，使得该方法仅需文本标注，无需单字切分标注即可训练。此外，文章还提出了一种语义正则化方法，用于在全卷积网络中嵌入语义信息。实验证明该方法在多个联机和脱机手写中文文本数据集以及场景中文文本数据中取得了最佳的识别指标。

二、方法

2.1 算法框架

图1 方法的整体结构图

该方法的整体框架如图1所示。输入的文本图片（或联机数据的脱机表示形式）经过编码器后分为三个分支，分别预测字符定位、字符边界框和字符类别。因为上述网络通过全卷积的方式实现，所以无法建模上下文语义信息。因此，训练过程中，通过语义正则化（ConR）引导网络在提取的特征中建模上下文信息。最后，文章提出的弱监督学习方法通过合成数据和巧妙的伪标注更新以及模型优化方式，做到无需人工标注真实数据的字符边界框即可训练模型预测文本的单字切分和识别结果，极大地降低了模型实际落地的成本。

2.2 基于切分的手写中文文本识别网络

图2 基于切分的手写中文文本识别网络结构图

基于切分的手写中文文本识别网络的结构借鉴了参考文献[1]中提出的模型。模型输入首先经过多个残差模块提取特征，再分为三路分别得到字符边界框分支的特征，字符定位分支的特征和字符分类分支的特征。这些特征的高度均为1，宽度均为。基于每个分支的特征，再通过卷积层预测出字符边界框坐标，字符定位置信度和字符分类概率。结合这些预测结果，通过设置置信度阈值和NMS操作，即可得到每个字符的边界框和类别，进而得到整个文本行的识别结果。

2.3 语义正则化

图3 语义正则化示意图

如上节中的图2所示，识别模型采用全卷积网络的形式实现，缺少CTC/Attention方法中常采用的BLSTM层，因而无法获取上下文的关联信息。因此，如图3所示，文章提出了语义正则化方法。

在训练过程中，该方法于字符分类特征之上添加额外的两层BLSTM层和字符分类层，新的字符分类结果同样计算交叉熵损失，增加在原网络的总损失上。因为BLSTM可以建模全局的上下文关联，所以通过梯度回传，可以引导字符分类特征嵌入上下文信息。

在推理过程中，删除额外的BLSTM层和字符分类层，采用原有的直接基于字符分类特征的分类结果。因为BLSTM层无法并行运算，前向效率较低，所以这样的推理方式保持了原有的全卷积结构的高推理速度。实验证明，采用BLSTM前后的分类结果的识别指标差距极小，进一步印证了字符分类特征可以学习到类似BLSTM建模后的上下文信息。

2.4 弱监督学习

弱监督学习的流程如图1（c）所示。模型首先采用简单的合成数据进行预训练，使得模型具有一定的定位和识别字符的能力，然后再采用仅有文本标注的真实数据进行训练，流程如下：

（1）对于真实数据，模型预测出多个字符的边界框和识别结果。文章中观察到，识别正确的字符通常预测的边界框也较为准确。因此通过计算识别结果和标注文本的编辑距离，得出两者中字符的对应关系，进一步得到识别正确的字符（红色的字符）。

（2）采用正确识别的字符的边界框（红色的边界框）对伪边界框标注进行更新。如果现有的伪边界框标注中已经存在该字符的伪标注，则将伪边界框标注更新为现有的伪边界框和新预测的边界框的加权和（权重基于二者的置信度计算），反之则将新预测的边界框直接复制为伪边界框。

（3）使用文本标注和现有的伪边界框标注对模型进行优化。与正常的损失计算不同的是，伪边界框标注可能并不包含所有字符的边界框。在这种情况下，字符边界框分支和字符分类分支的损失可以根据现有的字符伪边界框标注进行计算。但是因为仅能确定有字符的位置（蓝色的区域块），无法完全确定没有字符的位置，所以字符定位分支的损失计算存在一定困难。对于这一问题，文章中认为虽然存在无法确认是否包含字符的区域块（黄色），但是连续存在的伪标注框中间的区域块是可以确认为无字符（绿色），即为字符定位分支的负样本。至此，模型的三个分支都可以计算损失并优化。

三、实验

3.1 数据集

实验采用的真实数据集包括脱机手写中文数据集CASIA-HWDB、联机手写中文数据集CASIA-OLHWDB、ICDAR2013比赛测试集（包含脱机和联机数据）、复杂场景手写中文数据集SCUT-HCCDoc和场景中文数据集ReCTS。

实验采用的合成数据使用简单的将单字数据拼接在白色背景上的方法，无需复杂的数据合成和渲染算法，如图4所示。对于CASIA-HWDB和CASIA-OLHWDB，采用独立于文本行数据的同分布单字数据进行合成。对于SCUT-HCCDoc和ReCTS，采用字体文件和白色背景进行简单地合成。

图4 针对CASIA-HWDB，CASIA-OLHWDB和SCUT-HCCDoc的合成数据的示例（ReCTS采用与SCUT-HCCDoc相同的合成方式）

3.2 ICDAR2013脱机比赛测试集。

该方法在ICDAR2013脱机比赛测试集上的实验结果如表1所示，可视化结果如图5所示。

表1 ICDAR2013脱机比赛测试集实验结果

图5 ICDAR2013脱机比赛测试集可视化结果

3.3 ICDAR2013联机比赛测试集

该方法在ICDAR2013联机比赛测试集上的实验结果如表2所示，可视化结果如图6所示。

表2 ICDAR2013联机比赛测试集实验结果

图6 ICDAR2013联机比赛测试集可视化结果

3.4 SCUT-HCCDoc数据集

该方法在SCUT-HCCDoc数据集上的实验结果如表3所示，可视化结果如图7所示。

表3 SCUT-HCCDoc数据集实验结果

图7 SCUT-HCCDoc数据集可视化结果

3.5 ReCTS数据集

该方法在ReCTS数据集上的实验结果如表4所示，可视化结果如图8所示

表4 ReCTS数据集实验结果

图8 ReCTS数据集可视化结果

3.6 与CTC/Attention方法的比较

该方法与CTC/Attention方法在精度和速度上的比较如表5所示。可以看出，该方法在精度和速度上均由于目前流行的CTC/Attention方法。

表5 与CTC/Attention方法的在精度和速度上的比较

四、总结及讨论

该文章提出了一种新型的基于切分的联机和脱机手写中文文本识别方法。不同于现有的基于过切分的识别方法，该方法创新性地采用了一种基于端到端切分和识别单字的新型全卷积网络框架，因而具有极高的准确率和推理效率。为了解决单字切分标注的高成本问题，该文章提出了一种弱监督学习方法，使得仅需文本内容标注即可训练模型，并可同时给出文本行识别输出和单字框输出。此外，因为全卷积网络无法进行语义建模，文章中提出了语义正则化方法，在保持高效的全卷积推理结构的前提下，引导模型在特征提取中嵌入上下文信息。大量实验证明了该方法的有效性，在多个数据集上取得了SoTA的结果。同时该方法可以进一步应用于场景中文文本识别，同样在速度和精度上均优于CTC/Attention的方法。该文章希望通过这一工作为文本行识别领域提供一个新的解决思路。

五、相关资源

论文地址：https://ieeexplore.ieee.org/document/9695187

参考文献

[1]Dezhi Peng, et al. “A fast and accurate fully convolutional network for end-to-end handwritten Chinese text segmentation and recognition.” Proceedings of International Conference on Document Analysis and Recognition. 2019.

[2]Dezhi Peng, et al. “Recognition of handwritten Chinese text by segmentation: A segment-annotation-free approach.” IEEE Transactions on Multimedia. 2022.

原文作者: Dezhi Peng, Lianwen Jin, Weihong Ma, Canyu Xie, Hesuo Zhang, Shenggao Zhu and Jing Li

撰稿：彭德智

编排：高学

审校：殷飞

发布：金连文

免责声明：（1）本文仅代表撰稿者观点，撰稿者不一定是原文作者，其个人理解及总结不一定准确及全面，论文完整思想及论点应以原论文为准。（2）本文观点不代表本公众号立场。

往期精彩内容回顾

欢迎加入中国图象图形学学会!（附入会攻略）

征稿启事：本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果，欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。

扫码关注，获取最新OCR资讯

六大火药桶：世界种种动荡背后的历史逻辑

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

“顺为系”资本继续减持南芯科技，快充芯片龙头面临过于依赖大客户压力

八段锦“毒害”了多少中国女人，还有很多人不知道……

论文推荐|[TMM 2022]基于切分的手写中文文本识别：一种无需切分标注的方法

[ECCV 2022 oral]|Language Matters：面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法

[ACM MM 2022] DiT: 基于Transformer的文档图像自监督预训练方法

[IJCAI 2022] C3-STISR: 基于三重线索引导的场景文本图像超分辨率方法（有源码）

[CVPR 2022]基于语法感知网络的手写数学公式识别（已开源）

[ACM MM 2022] 解耦检测与识别：单阶段自依赖场景文本识别器

[ECCV 2022] CoMER: 基于Transformer与覆盖注意力机制建模的手写数学公式识别（已开源）

[ECCV 2022] 场景文字端到端识别中的全局到局部注意

[ECCV2022] MGP-STR:一种基于视觉Transformer的多粒度文字识别方法(已开源)

[IEEE TMM 2022] |手写汉字纠错的树结构分析网络

[SIGGRAPH 2022] 利用真实数据来提升文档图像矫正性能（有源码）

欢迎加入中国图象图形学学会!（附入会攻略）

您可能也对以下帖子感兴趣

六大火药桶：世界种种动荡背后的历史逻辑

中介费比税还贵，贝壳赚钱太狠了

这得要多「憨厚老实」，才能「收留」女硕士13年啊

“顺为系”资本继续减持南芯科技，快充芯片龙头面临过于依赖大客户压力

八段锦“毒害”了多少中国女人，还有很多人不知道……

生成图片，分享到微信朋友圈

论文推荐|[TMM 2022]基于切分的手写中文文本识别：一种无需切分标注的方法

您可能也对以下帖子感兴趣